Compression textuelle sur la base de règles issues d'un corpus de sms (Textual Compression Based on Rules Arising from a Corpus of Text Messages) [in French]
نویسنده
چکیده
Textual Compression Based on Rules Arising from a Corpus of Text Messages The present research seeks to reduce the size of text messages on the basis of compression techniques observed mostly in a corpus of sms. This paper explains the methodology followed to establish compression rules. It then presents the 33 considered rules, and illustrates the four suggested levels of compression with two practical examples, automatically generated by a first prototype. This research’s main purpose is not to produce "sms-language", but consists in designing a textual compression process able to generate short and understandable texts from any textual source in French. The term of "essentialization" is proposed to describe this approach of textual reduction. MOTS-CLEFS : résumé automatique, compression de texte, sms, lisibilité, essentialisation.
منابع مشابه
Application d'un algorithme de traduction statistique à la normalisation de textos (Applying a Statistical Machine Translation Algorithm to SMS Text Message Normalization) [in French]
RÉSUMÉ Ce travail porte sur l’application d’une technique de traduction statistique au problème de la normalisation de textos. La méthode est basée sur l’algorithme de recherche vorace décrit dans (Langlais et al., 2007). Une première normalisation est générée, puis nous appliquons itérativement une fonction qui génère des nouvelles hypothèses à partir de la normalisation courante, et maximison...
متن کاملTowards a generic graph rewriting system to enrich syntactic structures (Vers un système générique de réécriture de graphes pour l'enrichissement de structures syntaxiques) [in French]
RÉSUMÉ Ce travail présente une nouvelle approche pour injecter des dépendances profondes (sujet des verbes à contrôle, partage du sujet en cas d’ellipses, . . .) dans un corpus arboré présentant un schéma d’annotation surfacique et projectif. Nous nous appuyons sur un système de réécriture de graphes utilisant des techniques de programmation par contraintes pour produire des règles génériques q...
متن کاملExploitation de dictionnaires électroniques pour la désambiguïsation sémantique lexicale
RÉSUMÉ. Cet article présente un système de désambiguïsation lexicale sémantique, conçu initialement pour l’anglais et à présent adapté à la désambiguïsation du français. La méthodologie développée repose sur l’utilisation d’un dictionnaire électronique comme un corpus sémantiquement étiqueté afin d’en extraire une base de règles de désambiguïsation sémantique. Ces règles permettent d’associer à...
متن کاملVers une plate-forme interactive pour la visualisation de grands ensembles de règles d'association
Résumé. La recherche de règles d’association est une question centrale en Extraction de Connaissances dans les Données (ECD). Dans cet article, nous nous intéressons plus particulièrement à la restitution visuelle de règles pertinentes dans un corpus très important. Nous proposons ainsi un prototype basé sur une approche de type "wrapper" par intégration des phases d’extraction et de visualisat...
متن کاملVers des méta-règles de contexte appréciées par la IIE pour la RI
Text Mining (TM) process, based on mining association rules using an algorithm, generates a significant amount of association rules. In this article, these are non-redundant association rules resulting from a mining process from a text corpus. We first propose to show the interest and usefulness of association rules filtred by a quality measure other than confidence, especially Entropic Implica...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2012